Neste módulo, passamos do paradigma tradicional de ajuste fino baseado em pesos para o mundo dinâmico do Aprendizado em Contexto (ICL). Exploramos como os Modelos de Linguagem de Grande Porte (LLMs) alcançam domínio de tarefas não alterando sua arquitetura interna, mas aproveitando a estrutura da própria instrução para navegar em espaços latentes complexos.
1. Da Instrução à Demonstração
Enquanto uma instrução fornece apenas uma direção geral, a "imitação" por meio de pares entrada-saída $(x, y)$ atua como uma orientação não paramétrica. Esses exemplos funcionam como âncoras estatísticas que reduzem a distribuição de probabilidade do modelo, diminuindo a ambiguidade inerente às instruções em linguagem natural.
2. Os Mecanismos da Attenção
O ICL depende mecanismo de atenção do Transformer para realizar a "indução de tarefa." Ao identificar regularidades na sequência fornecida, o modelo localiza um mapeamento funcional específico no seu espaço de alta dimensão, permitindo-lhe imitar estilos e estruturas com alta precisão.
Goal: Provide a three-exemplar few-shot prompt that teaches the model a specific "Concise Executive" style, rather than just a generic professional tone.
Adjectives like "Concise" are subjective and have broad probability distributions; examples provide a concrete structural template that the attention mechanism can emulate with mathematical precision.